期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于网页正文结构和特征串的相似网页去重算法
熊忠阳 牙漫 张玉芳
计算机应用    2013, 33 (02): 554-557.   DOI: 10.3724/SP.J.1087.2013.00554
摘要832)      PDF (661KB)(434)    收藏
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。
相关文章 | 多维度评价